Représentations et régularisations pour la classification de sentiments

نویسندگان

  • Abdelhalim Rafrafi
  • Vincent Guigue
  • Patrick Gallinari
چکیده

As web 2.0 is spreading, users get used to give their opinion on forums, blogs and e-commerce websites. This is a valuable piece of information for many applications such as consumer modeling, sales prediction or opinion survey. According to the literature, the efficiency of opinion mining tools will mainly relies on the ability of discriminating texts that express positive sentiments from texts that express negative ones. Previous experiments show that this task is difficult. We compare various classical descriptors and point out the interest of large representations of texts (N-grams, sub-sequences) for this task. The dimensionality of the data causes problems during the learning step: we demonstrate the inefficiency of the classical regularization framework as well as the interest of penalizing frequent terms. We demonstrate the efficiency of our approach on classical Movie Reviews and Amazon data-sets. MOTS-CLÉS : Classification de sentiments, régularisation, pénalisation des termes fréquents

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Construction de descripteurs à partir du coclustering pour la classification supervisée de séries temporelles

Résumé. Nous présentons un processus de construction de descripteurs pour la classification supervisée de séries temporelles. Ce processus est libre de tout paramétrage utilisateur et se décompose en trois étapes : (i) à partir des données originales, nous générons de multiples nouvelles représentations simples ; (ii) sur chacune de ces représentations, nous appliquons un algorithme de cocluste...

متن کامل

Stabilité en niveau 0, pour les groupes orthogonaux impairs p-adiques

Précisons tout de suite que dans ce qui suit, F est un corps extension finie de Qp avec p 6= 2 et même pour le théorème principal p grand. Le but de ce travail est de produire des fonctions sur les groupes p-adiques orthogonaux impairs dont les intégrales orbitales sur les éléments elliptiques réguliers ne dépendent que des classes de conjugaison stable. Au passage, on produit aussi des fonctio...

متن کامل

Feature Selection in Sentiment Analysis

In this article, we propose a new method for feature selection and sentiment classification. To identify the most salient features belonging to the specific categories, we use the Z score measure. Based on this score, we can identify confident features and use the Information Gain (IG) measure to obtain scores for terms appearing in the neighborhood of the confident features. Based on this info...

متن کامل

Document Level Subjectivity Classification Experiments in DEFT’09 Challenge

Cet article présente nos expériences de classification supervisée pour la subjectivité au niveau des documents, pour l’anglais et pour le français, au cours du Défi DEFT’09 de fouille de textes. Nous avons testé des traits portant sur les mots, les parties du discours et sur des vocabulaires spécialisés pour faire fonctionner un classificateur SVM. Nos expériences sur les traits des mots examin...

متن کامل

Un système de vote pour la classification de textes d'opinion

La classification de textes a pour objectif le regroupement de documents selon différents critères. Dans les travaux présentés dans cet article, nous nous intéressons à la classification de textes d'opinion qui consiste à classer les textes selon un jugement tel que l'aspect positif ou négatif d'une critique, l'aspect favorable ou défavorable donné par un expert, etc. Nous proposons dans cet ar...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2012